DSpeech (by Dimio)
~~~~~~~~~~~~~~~~~~

La versin ms reciente se encuentra en el siguiente enlace:

Pgina de inicio: "http://dimio.altervista.org/"



DESCRIPCIN:
~~~~~~~~~~~~

DSpeech es un programa de texto a voz, (TTS) con funcionalidad de ASR, (sistema automtico de reconocimiento de voz) integrada. Est diseado para leer el texto escrito y para elegir las oraciones que debe pronunciar, de acuerdo con las respuestas mediante comandos de voz, interaccin con la interfaz o atajos rpidos de teclado del consumidor. Proyectado especficamente para dar rapidez, direccin completa de sus funciones y mayor utilidad requerida para este tipo de programas, aparte de mantener el menor tiempo de reaccin posible, la invasividad y el consumo de recursos, y no se instala. No se integra en el sistema, es ligero, se abre casi de manera instantnea y no escribe nada en el registro de tu sistema operativo.

Las caractersticas principales de DSpeech son:

1. Te permite guardar el texto editado en un archivo wav, mp3, ogg, aac y dems formatos.
2. Te permite seleccionar voces rpidamente mediante su men contextual para combinarlas de todas las maneras posibles y crear dilogos entre ellas.
3. Incluye un sistema de reconocimiento de voz que, mediante un sencillo lenguaje de scripting, hace posible la creacin de dilogos interactivos entre tus voces sintticas instaladas y t.
4. Permite configurar cada voz independientemente.
5. A travs de etiquetas especiales propias de DSpeech, te permite variar de forma dinmica las caractersticas de las voces durante la reproduccin, (Velocidad, Tono y Frecuencia), hacer pausas, enfatizar trminos o incluso deletrear.
6. Te permite capturar y reproducir automticamente con la voz predeterminada en el programa el contenido del portapapeles.
7. Ofrece soporte completo para los motores de voz SAPI 4 y SAPI5.

Aparte de una serie de caractersticas secundarias, entre las que estn:

1. La capacidad de cargar automticamente los ltimos archivos abiertos, con su propia posicin de lectura o marcador, til si deseas leer libros o hacer audiolibros con ellos.
2. El soporte de la lnea de comandos, para usar el programa sin interfaz grfica para crear audiolibros.
3. La capacidad de escoger el formato del audio a exportar. Esto es muy til en situaciones particulares en las que necesites operar con determinados archivos wav que tengan ciertas caractersticas.
4. La capacidad de insertar en plena lectura, a travs de una palabra clave precedida por el mayor que (>), una tos, una risa, o incluso un efecto musical.
5. La posibilidad de, una vez guardados los audios, especificar la calidad de los mismos en post de conservar ms calidad, tamao, u optimizar ambos.
6. La posibilidad de dividir el archivo de texto antes de que se convierta en audio en 5, 10, 15 minutos, Y hasta ms!
7. La capacidad de personalizar las etiquetas del propio programa, editando el archivo Custom-tag.txt. Este archivo es una tabla de etiquetas que te permitir insertarlas a futuro en el texto.



TEXTO A VOZ:
~~~~~~~~~~~~~~~

En el men contextual (click derecho o tecla de aplicaciones en el cuadro de edicin principal) se pueden elegir qu voces insertar en el texto clasificadas por idioma. Una vez seleccionada la voz, aparecer la etiqueta de uso de la misma, y debajo, la posibilidad de crear dilogos interactivos entre voces.
Tambin, es posible insertar etiquetas especiales propias de DSpeech para modificar las caractersticas de una voz. Y si deseas, puedes utilizar el micrfono desde DSpeech para crear dilogos interactivos contigo como el consumidor mientras cambias valores de cada voz en tiempo real como la velocidad, el volumen, la frecuencia, etc.



OPCIONES DE AUDIO:
~~~~~~~~~~~~~~

Tambin es posible especificar la tarjeta de sonido a la que DSpeech deber redirigir el audio, y sobre todo, la calidad de las voces que se debern usar. Este ajuste deber ser lo ms exacto posible a la calidad de la voz en s misma. De lo contrario, se escucharn prdidas masivas de calidad, como si la voz estuviera hablndonos desde una lata.
En general, la calidad de la mayora de voces sintticas disponibles en el mercado es: "16 Khzes 16 Mono Bit", mientras las voces de Microsoft utilizan "22 Khzes 16 Mono Bit."
Estas etiquetas de calidad son importantes en la conversin a un archivo wav o mp3. Sin embargo, puedes experimentar y encontrar lo que ms se adapte a tus gustos.



Conversin a un archivo wav o mp3:
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Tambin es posible utilizar DSpeech para convertir los dilogos interactivos que has creado en archivos wav o mp3. Una vez  has obtenido el resultado deseado, puedes escoger las caractersticas de la conversin. De hecho, puedes determinar si tu archivo debe estar optimizado para calidad, para tamao o valanceado.



EDITANDO EL TEXTO.
~~~~~~~~~~~~~~~~~~~~

Aparte de las funciones estndar de cualquier editor de textos (buscar, reemplazar, cortar ETC), una funcin particular ha sido integrada en DSpeech, la remocin de retornos de carro innecesarios. Se utiliza para eliminar las lneas en blanco que eventualmente pueden aparecer, para que no limiten la fluidez con que leern el resultado las voces sintticas que hayas elegido. De hecho, por razones de paginacin correcta y ms que nada de esttica es el motivo de la insercin de estos retornos de carro o lneas innecesarias que pueden afectar de manera negativa la lectura del texto.



CREACIN DE AUDIOLIBROS.
~~~~~~~~~~~~~~~~~~~~~~~

Una variedad de opciones para crear audiolibros han sido incorporadas en DSpeech. De manera particular, est la posibilidad de dividir el texto en distintos archivos de audio de un minuto cada uno, o ms, dependiendo del gusto del consumidor. Tambin es posible utilizar la subdivisin manual, donde t eliges dnde subdividir. En este caso, debers escribir el keyword ">BREAK" donde quieras para crear otro archivo de audio.
La opcin agregar permite insertar un archivo de texto despus del otro.
En este caso, el >BREAK ser insertado automticamente entre archivo y archivo, an dndote la capacidad de subdividir manualmente donde t quieras.
Tambin es posible insertar un >BREAK al inicio del texto para mantener la compativilidad con los lectores de CD o viejos archivos mp3.



RECONOCIMIENTO DE VOZ.
~~~~~~~~~~~~~~~~~~

DSpeech soporta un sistema de reconocimiento de voz que, unido a un simple sistema de scripting, te permite crear dilogos interactivos contigo como el consumidor del tipo:
Consumidor: "Ordenador?"
PC: "Ordenador listo. Quin es?"
Consumidor: "Dimio"
PC: "Bienvenido entonces"
Etc.

El sistema de scripting es muy similar al bsico. De momento estos Keywords estn soportados:


>VOICE NombreDeLaVoz
>I DA
>EXIT Sale
>LOOP
>RECOGNIZE Parola1, [Parola2], [OtrasPalabras...]
>RECOGNIZE_WITH_TIMEOUT Secondi, Parola1, [Parola2], [OTRAS_PALABRAS...]
>IF RECOGNIZED Parola1, [Parola2], [OTRAS_PALABRAS]...
>IF TIMEOUT
>END IF
>CALL NomeSub
>Sub NomeSub
>END SUB
>RANDOM
>HOUSES
>END RANDOM
>EXECUTE PathFileOProgramma
>OPEN FileToSpeech.txt
>STOP
>BREAK
>PLAY NombreDelArchivo.wav
>WAIT nSegundos
>CLOSE


En el men contextual del cuadro de edicin principal, (Click derecho o tecla aplicaciones) puedes encontrar todos estos keywords con ejemplos relativos.
De momento no explicar la sintaxis del lenguaje de scripting, considerando que t mismo/a puedes deducirlo de manera ms intuitiva desde los ejemplos en s mismos.
En cualquier caso, un ejemplo de scripting para el reconocimiento de voz de DSpeech puede ser el siguiente:


>VOICE Marco
Soy angelus el ordenador de dimitry. Quin eres t?
>DO
 >RECOGNIZE Dimitri, Gloria, OTHER_WORDS
 >IF RECOGNIZED Dimitri
  Angelus Esperando instrucciones
  >EXIT DO
 >END IF 
 >IF RECOGNIZED Gloria
  Te has equibocado de ordenador, el tuyo es el de ms a la derecha.
  >EXIT DO
 >END IF 
 >IF RECOGNIZED OTHER_WORDS
  >RANDOM
  >CASE
   Puedes repetir, por favor? No he entendido correctamente tu nombre
  >CASE
   Qu has dicho? Puedes repetir?
  >CASE
   No he entendido nada de lo que has dicho, muy probablemente tu nombre no est alojado en mi base de datos.
  >END RANDOM
 >END IF 
>LOOP


El sistema de reconocimiento de voz est formado de momento y enteramente en ingls, por lo que para que te reconozca lo que quieres decir, necesitars adaptarte a la pronunciacin en ingls de esas palabras. Por ejemplo, para que reconozca la palabra Rusia, debers escribir o decir  "Rassya."



ATAJOS RPIDOS:
~~~~~~~~~~

Aparte de las funciones visuales de la interfaz del programa en s, hay atajos de teclado para hacer ms fcil la interaccin. Los atajos de teclado soportados son los siguientes:

  F1 = Ir al cuadro de edicin principal
  F4 = Pausar/Reanudar
  F5 = Leer/Detener la lectura
  F6 o ALT + FLECHA ARRIBA = Leer la lnea anterior
  F7 o ALT + FLECHA IZQUIERDA = Leer la lnea actual
  F8 o ALT + FLECHA ABAJO = Leer la siguiente lnea
  F9 o ALT + FLECHA DERECHA = Leer desde el cursor
  F11 = Pasar a la voz anterior de las instaladas en el sistema
  F12 = Pasar a la siguiente voz de las instaladas en el sistema
  ESC = Detener
  ALT+1 = Subir volumen
  ALT+2 = Bajar volumen
  ALT+3 = Incrementa la velocidad
  ALT+4 = Decrementa la velocidad
  ALT+5 = Incrementa el tono
  ALT+6 = Decrementa el tono



LNEA DE COMANDOS:
~~~~~~~~~~~~~


Es posible especificar el nombre de un archivo desde la lnea de comandos para que DSpeech lo abra y reproduzca automticamente. Esto es til si necesitas crear un script de manera automtica.


SYNTAXIS:

DSPEECH.ExE [/Play] [/Speak] [/Wav] [/Mp3] [/Ogg] [/Hidden|/HiddenFix] [FileToSpeech.txt]


Ejemplos:

- Para abrir un archivo:

DSpeech.exe archivo.txt

- Para iniciar la reproduccin de un archivo: 

DSpeech.exe /Play archivo.txt

- Para verbalizar en voz alta una frase: 

DSpeech.exe /Speak Hola!

- Para convertir un audio a  mp3: 

DSpeech.exe /mp3 archivo.txt [destino.mp3]

- Para convertir un archivo de texto a ogg: 

DSpeech.exe /ogg archivo.txt [destino.ogg]

- Para convertir un archivo de texto a wav: 

DSpeech.exe /wav archivo.txt [destino.wav]



CONFIGURACIN DEL SISTEMA:
~~~~~~~~~~~~~~~~~~~~

Para sistemas Windows nt /2000, es necesario instalar el paquete MS Sapi5 desde el sitio web de microsoft o desde uno de estos enlaces:

http://aldostools.mysite4now.com/sapi51.msi
http://www.arlington.com.au/sapi51.msi

Con windows NT o 2000, si se desea utilizar el sistema de reconocimiento de voz, tambin se deber descargar e instalar dicho paquete de complementos para el sistema operativo desde la pgina de Microsoft. Se puede descargar de manera opcional el paquete universal de 30 MB desde el siguiente link:

http://clans.gameclubcentral.com/shoot/SR.zip

Windows XP/2003/VISTA No necesitan instalaciones de complementos, puesto que ya los tienen incluidos.

DSpeech Requiere una resolucin de pantalla de por lo menos 1024x768.




LAS VOCES:
~~~~~~~~~~~

DSpeech usa las voces instaladas en el sistema. Tambin cuentan las voces preinstaladas por defecto. Por ejemplo, en Windows XP solo estar Microsoft Sam. Sin embargo, si has instalado el paquete MS Sapi5.1 en Windows NT/2000, tendrs disponibles tambin a Microsoft Mike y Mary (solo en ingls)
Los usuarios de Windows XP podrn descargar su paquete correspondiente desde aqu:

http://download.microsoft.com/download/speechSDK/SDK/5.1/WXP/EN-US/Sp5TTIntXP.exe

Estos ltimos muy probablemente son mejores que sam, pero la calidad es avismalmente superior a algunas voces por defecto en Windows. Cabe resaltar, sin embargo, que Windows 10 ha mejorado sus voces sapi y eliminado las anteriores, pero diferencia s que hay. Se recomienda descargar voces de terceros si quieres otra calidad. Desafortunadamente, a menudo estas voces requieren licencias, y casi siempre son muy costosas. En cualquier caso, dejamos una particular forma de describir las voces segn su calidad y con su fabricante al inicio:

Acapela (Son voces claras e inteligentes, pero no son las mejores en trminos de naturalidad).
Cepstral (La calidad no se acerca mucho a las de las voces ms caras, pero de todos modos son usables aplicndoles ciertos efectos de audio si la edicin es lo tuyo).
Loquendo (Muy buenas, especialmente en trminos de naturalidad y expresividad, aunque son un poco costosas. Cabe mencionar tambin que hoy en da es difcil encontrarlas en su ltima versin, que ya no estn en venta por la compaa que las tena y que Nuance las compr y las hizo parte de Vocalizer Expressive, su popular paquete de voces).
RealSpeak (Realmente buenas. Algunas de estas voces las compr loquendo, otras vienen con autoinstalables y a menudo suelen romper los sintetizadores Sapi5 en sistemas operativos modernos, pero sirven igual).
VoiceWare (No estn para nada mal, aunque no existen voces en italiano).
Ivona (Probablemente las mejores del mercado. Hay que resaltar que estas voces tambin fueron compradas, en este caso por Amazon, y creemos que estn siendo utilizadas para el Amazon Echo y el Polly, distintas plataformas que usan voces sintticas).



NOTAS:
~~~~~~

Cuando insertas un archivo mp3 en el texto, especialmente de tamao considerable, un pequeo espacio puede aparecer antes y despus de la reproduccin del audio. Esto es normal y no se denomina como bug. Sin embargo, en el resultado final, el espacio desaparece por completo.

Para la compresin en mp3 el cdec utilizado es Blades (www.mp3dev.org), Y corresponde al archivo Lame.exe incluido en el paquete.



PROGRAMADORES Y BETA TESTERS:
~~~~~~~

Dimitrios Coutsoumbas (Dimio)
SKYPE  : katafratto
ICQ    : 145633952
E-MAIL : cyberdimio@gmail.com
PGINA DE INICIO   : http://dimio.altervista.org/



BETA-TESTERS:
~~~~~~~~~~~~~

Talksina (talksina@gmail.com)